Perakitan Tes ‘ala’ IRT 


Wahyu Widhiarso 
Fakultas Psikologi UGM 


Outline 
| °° “ide; 4 тт д(д7Д, қ 


* Deviasi standar dan eror standar pengukuran 
* Reliabilitas 
e Konsistensi > Presisi 
e Fungsi Informasi Tes 
e Perakitan berdasarkan ТІР 
* Peta Butir Orang (Rasch) 
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e Proses penyusunan butir-butir hasil dari ШІ coba 
menjadi sebuah tes (seri/versi tes) 
• Pertimbangan dalam melakukan perakitan 
e Skor yang dihasilkan valid (Validitas) 
* representasi, relevansi, jangkauan butir dalam tes 
e Hasil pengukuran yang dilakukan reliabel (Reliabilitas) 
• hasil pengukuran memuat eror acak rendah 
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e Proses penyusunan butir-butir hasil dari ШІ coba 
menjadi sebuah tes (seri/versi tes) 
• Pertimbangan dalam melakukan perakitan 
* Skor yang dihasilkan valid 
* representasi, relevansi, jangkauan butir dalam tes 
• Pengukuran yang dilakukan reliabel 


| * Teori Tes Klasik 
• hasil pengukuran memuat eror acak rendah 


° Teori Tes Modern 


Posisi Perakitan Tes dalam Tahap Penyusunan Tes 


” Analisis - i 
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Perbandingan 
Teori Tes Klasik vs 
Teori Tes Modern 
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Eror Standar Pengukuran 
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e Aturan Lama 
ITEM 


RESPONSE * Eror standar pengukuran berlaku 


US WP untuk semua skor dalam populasi 


PSYCHOLOGISTS tertentu. 


e Aturan Ваги 


* Eror standar pengukuran berbeda- 
SUSAN E. EMBRETSON beda tergantung dari kemampuan 
STEVEN P. REISE yang diukur 


Eror Standar Pengukuran 


Keluaran Hasil Analisis ITEMAN Keluaran Hasil Analisis IRT 
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N of Items 80 
N of Examinees 39 
Mean 24.718 
Variance 26.100 
Std. Dev. 5.109 
Skew 0.071 
Kurtosis -0.233 
Minimum 16.000 
Maximum 38.000 
Median 26.000 
Alpha 0.441 
Mean P 0.309 
Mean Item-Tot. 0.139 


Mean Biserial 0.183 
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Konsep Mengenai Presisi 
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Prinsip Eror Standar Pengukuran 
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0 SEM = Уетгог variance 
Tum = ,/observed variance x (1 — reliability) 
п = standard deviation of observed scores 
x y/1 — reliability. 
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Panjang Tes 


Prinsip Lama 
Tes yang panjang akan menghasilkan skor yang reliabel 
dibanding dengan tes yang pendek 


Prinsip Baru 
Tes yang pendek bisa menghasilkan skor yang lebih reliabel 
dibanding dengan tes yang panjang 


Di dalam statistika, sebuah statistik itu terpercaya alias bukan karena 
faktor kebetulan jika informasinya didapatkan dari banyak orang. 
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Konsep mengenai properti psikometris pada teori tes klasik juga demikian, sebuah 
pengukuran akan menghasilkan informasi yang terpercaya ya bukan karena faktor eror 
pengukuran jika dihasilkan dari pengukuran dalam jumlah yang banyak 


Reliabilitas 
Tinggi 
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Cronbach Alpha 


k= jumlah butir. 
Semakin banyak butir semakin tinggi harga reliabilitas 


Menurut teori respons butir, reliabilitas atau presisi yang tinggi akan didapatkan ketika kita 
memberikan butir soal yang dan memiliki tingkat kesulitan yang sesuai dengan kemampuan orang yang 
kita ukur 
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Informasi Tes 


* Tes bertujuan untuk 
membedakan antara satu 
orang dengan orang lainnya 
dalam satu kontinum 


* Ketika tes dapat membedakan 
dengan akurat, tes tersebut 
memberikan informasi yang 


tinggi 


Tingkat Kemampuan Orang 


Tingkat Kesulitan Tes 


Tingkat Kemampuan Orang 
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Tingkat Kesulitan Tes 


Fungsi Informasi 
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Rendah Tinggi 
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* Ketika tes mampu 8 
membedakan antar 
Individu, tes menghasilkan 6 
Informasi 


Test Information 
A 


• Informasi akan meningkat 
ketika variasi hasil 
yang dihasilkan sangat 
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Rendah Kemampuan 
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* Ketika tes mampu 8 
membedakan antar 
Individu, tes menghasilkan 6 
Informasi 


Test Information 
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e Ketika butir soal tepat 
dengan tingkat 
kemampuan individu, 
Informasi akan meningkat 


Fungsi Informasi Tes dan Fungsi Informasi Butir 


Information 


Fungsi Informasi Tes dan Fungsi Informasi Butir 


Information 


Fungsi Informasi Tes >< Eror Standar Pengukuran 


Group 1, Total Information Curve 


« Semakin tinggi informasi 
yang didapatkan, semakin ,, 
rendah eror pengukuran 
yang dihasilkan 
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Prinsip Perakitan Butir ala IRT 


« Perakitan bertujuan untuk mendapatkan informasi 
dengan presisi tinggi mengenai individu terkait konstruk 
yang diukur 

* Presisi tinggi didapatkan ketika tingkat kesulitan butir match 
dengan kemampuan individu yang diukur 


Prinsip Perakitan Butir ala IRT 


• Perakitan dilakukan dengan menyesuaikan tingkat 
kesulitan butir dan tingkat kemampuan orang yang 
diukur 


- Memberikan tes dengan tingkat kesulitan yang mendekati 
dengan tingkat kemampuan individu yang diukur 


Ilustrasi CAT 


Question Difficulty 
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Question Number 
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• Penentuan dimensi ukur 
• Penentuan panjang tes 
* Penentuan target bentuk fungsi informasi tes 


* Memilah butir di bank soal untuk mencapai target fungsi 
Informasi 


Peta Butir-Orang 
dalam Rasch Model 


Perakitan dalam Rasch Model 


Parameter orang dan butir dalam Rasch Model telah dijadikan ‘satukan’ 
sehingga keduanya memiliki satuan yang sama dalam bentuk LOGIT 


НТ 


TINGGI 


Jika keduanya disatukan, 
jadilah PETA BUTIR ORANG 
atau yang lebih dikenal 
denga WRIGHT MAP karena 
yang mengembangkan 
adalah Benjamin Wright 
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Idealnya butir-butir memiliki sebaran _ 2 Ç 
tingkat kesulitan yang bervariasi dan : NIS a : 
menjangkau sebaran individu seperti pada б NE ооа s 
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Tingkat Kesulitan 
Tinggi 


Butir 


Tingkat Kesulitan 
Rendah 


Ada tiga orang yang memiliki kemampuan ketinggian meloncat yang hampir mirip yaitu 1,9 meter. Jika kita 
memberikan tugas meloncati rintangan setinggi 1 meter maka semua orang dapat meloncatinya, demikian juga 
ketika kita berikan rintangan setinggi 2 meter semuanya tidak dapat meloncatinya. Pada kondisi ini, kita tidak 

memiliki informasi untuk memutuskan siapakah yang lebih tinggi kemampuan meloncatnya 


Ketika diberikan tugas dengan tingkat kesulitan yang mendekati kemampuan mereka, maka didapatkan variasi skor 
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Sebuah tes harus memiliki tingkat kesulitan yang mampu 
mengakomodasi sebaran kemampuan peserta yang dites 


Butir-butir soal terlalu mudah 


e Banyak orang mudah menjawab benar sehingga informasi tidak 
didapatkan 


Butir-butir soal terlalu sulit 


e Banyak orang mudah menjawab salah sehingga informasi tidak 
didapatkan 


Ketika kita tidak memiliki informasi yang cukup mengenai 
kemampuan ketiga orang tersebut, kita tidak memiliki 
cukup keyakinan untuk mengatakan bahwa А 
kemampuannya sama dengan 1,45 meter sedangkan B 
adalah 1,50 meter 


Jadinya.. eror standar hasil estimasi kita terhadap 
kemampuan peserta tes sangat tinggi karena didasari oleh 
Informasi yang kurang kuat 


Kemampuan Kesulitan 
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Apa yang harus kita lakukan ketika 
menemui kondisi seperti itu? 
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Buatlah soal yang memiliki tingkat kesulitan lebih mudah dari soal dengan nomor 
10019 atau 10022, namun lebih sulit dari 10015 atau 10030 lalu ujicobakan dengan 
melibatkan butir-butir tersebut sebagai anchor aitem, sehingga kita tidak perlu 

mengujikan semua butir yang sudah diujikan 


Untuk tes yang memiliki fungsi yang 
spesifik, misalnya untuk SELEKSI 
atau REMIDI, tingkat kesulitan tidak 
harus merata 
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Fungsi Remidial 


Pada kondisi ini, tes kita kurang 
reliabel ketika diberikan kepada 
orang yang kemampuannya 


tinggi. 
TIDAK MASALAH 


karena tujuan kita adalah agar 
tes membedakan individu yang 
memiliki performansi rendah 
secara lebih cermat, karena tes 
fungsinya adalah REMIDI 
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Pada kondisi ini, tes kita kurang 
reliabel ketika diberikan kepada 
orang yang kemampuannya 
rendah karena butirnya terlalu 
sulit. 


TIDAK MASALAH 


кагепа tujuan kita adalah agar 
tes membedakan individu yang 
memiliki performansi tinggi 
dengan baik 
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Namun demikian, desain seperti 
ini kadang memiliki masalah 
ketika tes seleksi dilaksanakan 
secara massal di berbagai 
wilayah yang memiliki tingkat 
kemampuan yang berbeda-beda 


Orang di pusat yang memiliki 
kemampuan rata-rata tinggi 
terbedakan dengan baik, namun 
orang di daerah yang tidak 
terbedakan dengan baik 
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Untuk mengakomodasi tersebut 
beberapa tes yang tergolong 
Large assessment test seringkali 
menggunakan desain seperti ini. 
Tingkat kesulitan butir-butir di 
dalam tes dibuat bervariasi 


Mengapa Harus 
Memperhatikan 
Peta Butir Urang” 
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Skor di dalam yang dihasilkan oleh pengukuran yang dikembangkan berdasarkan 
Model Rasch adalah skor yang menunjukkan tingkatan (level). Sepertihalnya 
sebuah penggaris. Makna skor ini berbeda dengan makna skor yang dihasilkan 
oleh pengukuran yang menggunakan model akumulasi yang belum tentu 
menunjukkan tingkatan (level) 


Accurate Not Accurate Accurate Not Accurate 
Precise Precise Not Precise Not Precise 


Peta butir dapat menunjukkan gambaran mengenai presisi dari pengukuran yang dilakukan. 
Masalah presisi ini nantinya terkait dengan reliabilitas pengukuran yang dilakukan, 
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Berbeda dengan teori tes klasik, 
reliabilitas pada Model Rasch 
ada pada setiap titik level 
kemampuan. Tes akan 
menghasilkan pengukuran yang 
reliabiltasnya tinggiketika 
dikenakan pada level tertentu 
namun menghasilkan 
reliabilitas rendah ketika 
dikenakan pada level yang lain. 


Apakah Konstruk Non Kognitif perlu 
dikembangkan dengan menggunakan Peta 
Orang Butir? 
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Indikator Indikator Indikator 
Harga Diri Rendah Harga Diri Sedang Harga Diri Tinggi 


Tidak harus, akan tetapi jika dikembangkan akan lebih baik lagi karena (1) hakikat 
dari skor hasil pengukuran menunjukkan sebuah tingkatan berdasarkan atribut 
ukur, (2) banyak konstruk non kognitif terkait dengan ‘kemampuan’ misalnya 
pengelolaan diri, empati, dan keterampilan berkomunikasi dsb 


